Pacotes

library(tidyverse)
library(data.table)
library(plotly)
library(tidyquant)
library(grid)

Importando os Dados

Para importar os dados será utilizada a função fread() do pacote data.table.

dados_teste <- fread("simulacao_ipea.csv")
dados_teste %>% head()
##     ano  orgao idade sexo uf escolaridade     raca remuneracao
## 1: 1993    CNC    79      TO           NA Indigena     6799.73
## 2: 2007   Uesb    33    F MS           NA   Branco     9843.94
## 3: 2011   Ufma    60    M MG            5    Preto     7416.29
## 4: 2000   Ifad    34    M AC            3    Pardo     9416.94
## 5: 2013 Uniube    67    F RN            5 Indigena     2769.03
## 6: 2019   Uneb    49    M PB            3    Pardo     6157.14

Extraindo Informações dos Dados

  1. Qual é a quantidade de trabalhadores do sexo masculino com idade igual ou superior a 50 anos, registrados no estado da Bahia, no ano de 2019?
quest1 <- dados_teste %>% filter(sexo == "M" & idade >= 50 & uf == "BA" & ano == 2019) # realizando a filtragem
quest1 %>% head() #vendo parte dos dados
##     ano orgao idade sexo uf escolaridade     raca remuneracao
## 1: 2019 UFRPE    50    M BA            4    Pardo     5501.72
## 2: 2019 Ipaam    77    M BA            4    Pardo     7034.28
## 3: 2019 DNOCS    76    M BA            5 Indigena     5305.22
## 4: 2019 Cicir    63    M BA           NA    Pardo     8399.55
## 5: 2019  Apta    57    M BA            4   Branco     2756.98
## 6: 2019   ANS    68    M BA            4 Indigena     6713.25
quest1 %>% NROW() #quantidade de observacoes
## [1] 3184
  1. Qual ano e estabelecimento apresenta a maior quantidade de registros do sexo feminino?
quest2 <- dados_teste %>% filter(sexo == "F") 
quest2 %>% head()
##     ano  orgao idade sexo uf escolaridade     raca remuneracao
## 1: 2007   Uesb    33    F MS           NA   Branco     9843.94
## 2: 2013 Uniube    67    F RN            5 Indigena     2769.03
## 3: 2003   SBPC    80    F PA            2    Preto     7769.89
## 4: 1995  Icone    58    F PB            4   Branco     4562.37
## 5: 1991  UFPel    31    F RO            3  Amarelo     6311.04
## 6: 2005  Creai    60    F BA           NA    Pardo     9197.87
quest2 %>% count(ano, orgao)  %>% arrange(desc(n))
##         ano   orgao   n
##     1: 2017     ANA 875
##     2: 2017     SBB 875
##     3: 2018     SBF 872
##     4: 2018     ANA 858
##     5: 2018     SBB 832
##    ---                 
## 10256: 1990    Abia 209
## 10257: 1990     UEM 209
## 10258: 1990     UnB 207
## 10259: 1991 Funceme 206
## 10260: 1990    Ufes 199
  1. Sabendo-se que o nível de escolaridade de um trabalhador vai de 1 até 5, qual é o percentual de trabalhadores, registrados no estabelecimento Ipea, com escolaridade nível 4 no ano de 2015?
quest3 <- dados_teste %>% filter(ano == 2015 & orgao == "Ipea" & escolaridade %in% 1:5)
quest3 %>% head()
##     ano orgao idade sexo uf escolaridade    raca remuneracao
## 1: 2015  Ipea    36      PI            3             8727.11
## 2: 2015  Ipea    29    M RO            5 Amarelo     8202.24
## 3: 2015  Ipea    65    M MG            4             2616.22
## 4: 2015  Ipea    18    M BA            4   Pardo     8065.70
## 5: 2015  Ipea    49    M MT            4   Pardo     3232.24
## 6: 2015  Ipea    63    F RS            4   Pardo     1775.55
quest3 %>% count(escolaridade) %>% mutate(prop = round(100*(n/sum(n)), 1))
##    escolaridade   n prop
## 1:            1  80  7.7
## 2:            2 169 16.3
## 3:            3 250 24.2
## 4:            4 448 43.3
## 5:            5  87  8.4
  1. Ao analisar os números de mulheres registradas no estabelecimento UFSJ, apenas para o ano de 2010, qual raça apresenta a menor quantidade de registros? Obs: desconsiderar registros sem a raça declarada.
quest4 <- dados_teste %>% filter(ano == 2010 & sexo == "F" & orgao == "UFSJ" & raca != "")
quest4 %>% head()
##     ano orgao idade sexo uf escolaridade    raca remuneracao
## 1: 2010  UFSJ    82    F SE            4  Branco     8119.00
## 2: 2010  UFSJ    51    F RS            3  Branco     2906.73
## 3: 2010  UFSJ    60    F BA            2   Pardo     5528.31
## 4: 2010  UFSJ    45    F MT            4   Pardo     8627.85
## 5: 2010  UFSJ    63    F DF            1 Amarelo     4352.05
## 6: 2010  UFSJ    60    F BA            2   Preto     9139.56
quest4 %>% count(raca) %>% arrange(n)
##        raca   n
## 1:  Amarelo  25
## 2: Indigena  26
## 3:    Preto  53
## 4:    Pardo  85
## 5:   Branco 114
  1. Carregar um gráfico, preferencialmente nos formatos HTML, PNG, JPEG, e PDF, contendo uma série temporal de 1985 até 2019, que trate sobre a diferença de sexo e raça. Você pode explorar as variáveis que achar mais relevantes.
dados_teste %>% summarise(n = length(ano))
##          n
## 1 10000000
dados_teste %>% summarise(x1= min(ano), xn = max(ano))
##     x1   xn
## 1 1990 2019
quest5 <- dados_teste %>% filter(sexo != "" & raca != "") %>% group_by(ano, sexo, raca) %>% summarise(remuneracao_media = mean(remuneracao), remuneracao_mediana = median(remuneracao),.groups = "drop") %>% mutate(sexo = if_else(sexo == "M", "Masculino", "Feminino"))
quest5 %>% head()
## # A tibble: 6 × 5
##     ano sexo      raca     remuneracao_media remuneracao_mediana
##   <int> <chr>     <chr>                <dbl>               <dbl>
## 1  1990 Feminino  Amarelo              5417.               5412.
## 2  1990 Feminino  Branco               5406.               5358.
## 3  1990 Feminino  Indigena             5429.               5446.
## 4  1990 Feminino  Pardo                5444.               5448.
## 5  1990 Feminino  Preto                5421.               5432.
## 6  1990 Masculino Amarelo              5428.               5401.
p <- quest5 %>% ggplot(aes(x = ano, y = remuneracao_media, color = raca)) + geom_line() + ylab("Remuneração Média") +  labs(color='Raça/Cor') +
scale_y_continuous(limits = c(min(quest5$remuneracao_media), max(quest5$remuneracao_media))) +
theme(axis.text.y = element_text(angle = 90, hjust=1, size = 5), 
axis.text.x = element_text(angle = 45, hjust=1, size = 5), panel.spacing = unit(3, "lines"),
axis.title.y = element_text(size=5),
axis.title.x = element_text(size=5)) +
facet_wrap(vars(sexo), scales = "free_y", ncol = 2) 

ggplotly(p)
  1. Faça um pequeno texto explicativo sobre o gráfico gerado na questão anterior, apresentado os principais pontos de interesse e elaborando as estatísticas mais relevantes. Obs: no máximo 3 (três) parágrafos.
#Valores considerando as rendas medias
quest5 %>% ungroup() %>% group_by(raca, sexo) %>% summarise(media = mean(remuneracao_media), dp = sd(remuneracao_media), mediana = median(remuneracao_media), Q1 = quantile(remuneracao_media, probs = 0.25), Q3 = quantile(remuneracao_media, probs = 0.75),.groups = "drop")
## # A tibble: 10 × 7
##    raca     sexo      media    dp mediana    Q1    Q3
##    <chr>    <chr>     <dbl> <dbl>   <dbl> <dbl> <dbl>
##  1 Amarelo  Feminino  5431.  33.0   5423. 5415. 5448.
##  2 Amarelo  Masculino 5431.  16.8   5428. 5420. 5441.
##  3 Branco   Feminino  5429.  16.0   5433. 5419. 5440.
##  4 Branco   Masculino 5430.  11.0   5431. 5422. 5437.
##  5 Indigena Feminino  5429.  26.3   5432. 5411. 5448.
##  6 Indigena Masculino 5437.  30.0   5438. 5416. 5457.
##  7 Pardo    Feminino  5434.  15.7   5439. 5420. 5446.
##  8 Pardo    Masculino 5425.  13.8   5425. 5417. 5435.
##  9 Preto    Feminino  5434.  16.0   5433. 5424. 5439.
## 10 Preto    Masculino 5428.  19.1   5422. 5413. 5438.

No gráfico acima são apresentadas as séries de 1990 a 2019 da renda média considerando os diferentes níveis de raça e sexo. O objetivo deste gráfico é tentar analisar a evolução da renda média ao longo dos anos, verificando a influência das variáveis raça e sexo. Além disso, tentar responder perguntas como: i) a raça é relevante para o nível da renda dos trabalhadores? ii) qual o impacto do sexo na renda dos trabalhadores? iii) qual será o impacto conjunto de raça e sexo na renda média dos trabalhadores?

A renda média para homens indígenas tem uma tendência de crescimento nos últimos 10 anos, enquanto que para as mulheres indígenas apresenta uma tendência de queda. Além disso, a renda média para os indígenas apresenta uma maior variação (para as mulheres o desvio-padrão é \(S = 26,3\) reais e para os homens é de \(S = 30,0\) reais) do que as observadas para a maioria das outras raças. Entretanto, a renda das mulheres amarelas apresenta uma maior variação geral (o desvio-padrão é \(S = 33\) reais). Por fim, a partir das medidas calculadas é possível notar que as rendas médias são bem similares independente da raça e do sexo (possível ver observando as médias e os quartis).